@瞌睡虫
2年前 提问
1个回答
什么是数据中毒?
Ann
2年前
“数据中毒”是一种特殊的对抗攻击,是针对机器学习和深度学习模型行为的一系列技术。 恶意行为者可以利用数据中毒为自己打开进入机器学习模型的后门,从而绕过由人工智能算法控制的系统。
数据中毒攻击旨在通过插入错误标记的数据来修改模型的训练集,目的是诱使它做出错误的预测。成功的攻击会损害模型的完整性,从而在模型的预测中产生一致的错误。一旦模型中毒,从攻击中恢复是非常困难的,一些开发人员甚至可能都不会去尝试修复。
导致数据中毒或模型中毒类型的网络攻击会污染机器学习模型的训练数据。由于篡改训练数据会妨碍模型做出准确的预测,所以通常认为数据中毒属于完整性攻击。其他的网络攻击根据其影响可以归类为以下三种:
机密性攻击:攻击者通过向模型输入数据来推断训练数据中潜在的机密信息。
有效性攻击:攻击者对其输入的数据进行伪装来欺骗系统,逃避正确的归类。
复制性攻击:攻击者反向还原模型以对其进行复制或者本地分析,并策划攻击或实现自身的经济企图。
想要区分规避模型预测及分类的网络攻击与中毒攻击,主要在于其持续性。发起中毒攻击者的目的是欲使其输入的数据被系统识别为训练数据。依照模型数据训练周期的长短,两种攻击的时限也有所不同,比如有的中毒攻击要花数周时间才能完成。
数据中毒可以通过“黑盒”或“白盒”两种形式来实现。“黑盒”是指针对根据用户反馈来更新学习模型的分类系统发动的攻击;“白盒”指攻击者通过获取学习模型和其训练数据的访问权限(如果系统有多个数据源,那么漏洞往往出现在供应链)发起的攻击。